Contratos Kernel: Acotando la Divergencia entre Entrenamiento e Inferencia
Los contratos kernel acotan la divergencia entre entrenamiento e inferencia, reduciendo sesgos en el gradiente de política en post-entrenamiento de RL.
Los contratos kernel acotan la divergencia entre entrenamiento e inferencia, reduciendo sesgos en el gradiente de política en post-entrenamiento de RL.
OLIVE: aprendizaje incremental de bajo rango para exoesqueletos. Logra 13% más suavidad, 22% menos esfuerzo y mayor estabilidad en terrenos. ¡Descúbrelo!
Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.
¿Sabías que los transformers pueden aprender a razonar con solo recompensas finales? Un nuevo estudio revela que los datos simples son la clave.
Descubre SDPG, un marco de gradiente de política autodestilada que estabiliza el entrenamiento de LLMs mediante autorefuerzo y ventajas de grupo.
Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.
Descubre cómo la relación señal-ruido no uniforme en el estimador REINFORCE causa inestabilidad y colapso durante el entrenamiento en RL.
Descubre d2, un marco de razonamiento para modelos de difusión que mejora el rendimiento en tareas lógicas y matemáticas, superando a RL tradicional.
Descubre cómo ReMax y RePPO logran exploración emergente en RL optimizando políticas mediante reintentos. Resultados en MinAtar y Craftax.
El 'colapso cero' es un fallo crítico en métodos de gradiente de política en subastas. Aprende a evitarlo con estrategias prácticas de inicialización y arquitectura.
REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.
EchoRL identifica EchoClips en rollouts exitosos para proporcionar supervisión auxiliar y mejorar el aprendizaje por refuerzo en LLMs, superando la degeneración de ventajas.